#Google TPU
難怪高通急了
2025年底,一則消息讓聯發科成為了半導體行業關注的焦點。據報導,聯發科為Google操刀的首款TPU v7e將於2026年第一季度末進入風險性試產,並已拿下下一代TPU v8e訂單。更令人矚目的是訂單量的爆發式增長——聯發科向台積電協商的CoWoS年產能從2026年的約1萬片倍增至2萬片,而到2027年更是暴增至15萬片以上,是2026年的七倍以上。這意味著什麼?市場估算,光是v7e從2026年至2027年的出貨,總計可望為聯發科貢獻超過兩個股本的獲利。聯發科CEO蔡力行此前設定的目標是2026年雲端ASIC相關營收達10億美元,到2027年則達到數十億美元規模。從目前的訂單增長態勢來看,這個目標顯然是有些保守了。有趣的是,聯發科此前在ASIC業務上一直保持低調,從未透露客戶名稱。保密程度過高做法一度讓市場產生誤解,認為是"做不好所以不願意講",甚至傳出v7e進度延遲的消息。但隨著v7e確定進入風險性試產,外界才意識到聯發科的實力被嚴重低估。更值得注意的是,由於Google需求強勁,等不及v7e投片生產到完成CoWoS封裝與測試的八九個月周期,只要後續認證進度順利,v7e試產的產出也視同量產產品供應給客戶。這種試產即量產的模式,既解決了Google趕著要貨的燃眉之急,也將為聯發科盡快帶來相關業績貢獻。聯發科,靠AI大賺首先需要說明的是,聯發科能夠在雲端ASIC市場站穩腳跟,核心競爭力在於其SerDes(序列器/解串器)技術。在今年的輝達GTC大會上,聯發科展示了其Premium ASIC設計服務,顯示其與輝達的合作已擴展至IP領域。聯發科的SerDes技術涵蓋晶片互連、高速I/O、先進封裝與記憶體整合。其112Gb/s DSP基於PAM-4接收器,在4奈米FinFET製程上實現超過52dB損耗補償,意味著更低的訊號衰減和更強的抗干擾特性。現在聯發科更推出專為資料中心使用的224G SerDes,並已完成矽驗證。事實上,除了這兩天曝出的Google的TPU訂單,聯發科此前在雲服務商市場也取得了突破。據調研機構指出,部分雲服務提供商(CSP)已在評估輝達及聯發科IP組合的定製化設計晶片。報導顯示,聯發科即將獲得Meta一款2奈米工藝ASIC的大額訂單,該晶片代號為Arke,專注於後訓練和推理功能,可能在2027年上半年實現量產。值得一提的是,此前聯發科還宣佈與輝達合作設計GB10 Grace Blackwell超級晶片,該晶片將為新推出的NVIDIA DGX Spark提供動力。GB10採用了聯發科在設計節能、高性能CPU、記憶體子系統和高速介面方面的專業知識。聯發科CEO蔡力行也透露,設計複雜度更高的接續專案已在進行,預計2028年起貢獻營收。此外,公司持續積極與第二家超大規模資料中心業者洽談新的資料中心ASIC專案,預期未來相關業務將快速成長。站在手機晶片廠商的角度,其實並不難理解聯發科轉向ASIC的原因。作為一家晶片設計公司,聯發科目前在手機晶片市場面臨激烈競爭,利潤率受到擠壓,而ASIC設計服務能為聯發科提供了更高的利潤率和更穩定的客戶關係,成為其擺脫手機晶片紅海競爭的關鍵突破口。高通的焦慮當聯發科在雲端ASIC市場收穫訂單時,同為手機晶片巨頭的高通卻顯得焦慮不安。這種焦慮並非無緣無故——它源於對單一業務模式的恐懼,源於手機市場增長放緩的現實,更源於錯失AI時代機遇的危機感。翻開高通2025財年第四季度的財報,表面上看業績並不算差:手機晶片業務營收69.6億美元,增長14%,汽車晶片業務營收10.5億美元,增長17%,物聯網業務18.1億美元,增長7%,授權業務營收下滑7%至14.1億美元,總營收達到112.7億美元,同比增長10%,超出市場預期。但漂亮的增長數字背後隱藏著巨大的隱憂。手機業務仍然佔據高通營收的62%以上,汽車和物聯網業務雖然在增長,但與手機業務相比仍然小一個數量級。更嚴峻的是,全球智慧型手機市場已經趨於飽和,增長率逐年放緩,競爭對手的產品也在不斷增強。稱汽車和物聯網為“三大支柱”之二有些牽強——手機業務仍是主要支柱,其他兩個業務充其量只是輔助支柱。目前而言,全球智慧型手機市場早已進入成熟期,出貨量增長放緩,產品同質化加劇;同時,聯發科在高端SoC上持續逼近,蘋果加速推進自研數據機,進一步削弱高通在iPhone陣營的長期確定性。一旦手機業務承壓,高通整體營收與利潤結構將面臨系統性衝擊。此外,高通的高利潤率的授權業務當季營收同比下滑7%,在全球OEM強化自研、專利協議趨於重新談判的背景下,這一“現金牛”的增長動能正在減弱,也對整體利潤結構帶來了潛在的壓力。更令管理層焦慮的是節奏問題。當博通、Marvell等公司已在定製AI晶片、雲端算力和高速互連領域拿下實質性大單,聯發科通過ASIC設計服務獲得GoogleTPU訂單時,高通仍然主要被市場視為“手機晶片公司”,在AI算力版圖中尚未形成清晰的收入貢獻。正因如此,高通開始反覆強調“端側 + 雲側”的雙線AI佈局,從驍龍平台的端側AI能力,延伸至汽車、IoT,再到計畫於2026年、2027年推出的AI200與AI250伺服器級加速晶片,試圖跳出手機紅海,進入更高天花板的算力市場。但問題恰恰在於——在AI真正形成規模性收入之前,高通仍必須依賴一個增長見頂、競爭加劇的手機市場來支撐當下的財報。這也是2025財年所暴露出的最大短板:財務表現穩健,卻缺乏結構性安全墊;戰略方向清晰,但業務重心尚未完成切換。收購能否解決問題?面對AI業務收入貢獻不足、增長引擎單一的現實,高通在過去幾年其實通過在汽車方面的投入取得了不錯的成績,但公司似乎還沒足夠的安全感。在2025年,他們明顯加快了通過併購補齊能力短板的節奏,試圖以資本換時間,為其AI轉型爭取窗口期:2025年3月,高通宣佈收購邊緣AI技術公司Edge Impulse;2025年6月,高通宣佈以24億美元收購SerDes(序列器/解串器)IP領導者Alphawave Semi;2025年10月,高通宣佈收購開源硬體和軟體專業公司Arduino;2025年12月,高通宣佈收購RISC-V技術初創公司Ventana Micro Systems……此時新的問題也隨著浮現:單靠“買買買”,就能解決問題嗎?事實上,高通對收購策略的信心,很大程度上源於2021年對Nuvia的成功收購。2021年,高通斥資14億美元收購了由前蘋果晶片架構師創立的初創公司Nuvia,獲得了定製的、相容Arm架構的Oryon CPU核心架構。這筆收購被證明是高通近年來最成功的投資之一。2024年,高通憑藉驍龍X系列處理器中的Oryon晶片,重振了其在PC市場的雄風,讓高通看到了擺脫手機單一業務的可能性。Oryon的大獲成功似乎讓高通管理層相信:通過收購獲得關鍵技術,比自主研發更快、更有效。但對比後我們就能發現,與收購Nuvia不同,2025年的收購更多解決的是“能力是否齊備”的問題,無論是Edge Impulse、Arduino,還是Ventana,它們的價值都高度依賴於後續產品整合和生態放大,本質上並不能直接幫助增加營收;而Alphawave雖能顯著增強高通在AI伺服器晶片上的技術底座,但真正轉化為規模化收入,仍需等待AI200、AI250等產品在2026年之後落地。這意味著,高通今年的收購還在解決從無到有的問題,無法在短期內改變公司的現金流與利潤仍然高度依賴手機業務的事實,它們更像是在為未來下注,而不是為當下解圍。這也讓我們不禁想起2013-2014年左右的英特爾。2013年,保羅·歐德寧在擔任CEO八年後卸任,布萊恩·科再奇接任CEO。當時英特爾的業績堪稱輝煌:2013年底銷售額為527.1億美元,營業收入為122.9億美元,淨利潤為96.2億美元,毛利率高達59.8%,其無疑是當時業績最好的半導體公司之一。然而,科再奇深感危機四伏。公司的大部分銷售額來自PC客戶端業務(PCCG:銷售額330.4億美元,營業利潤118.3億美元)和資料中心業務(DCG:銷售額112.4億美元,營業利潤51.6億美元),這意味著公司對x86處理器的依賴程度極高,非x86處理器相關的銷售額僅為40.9億美元,營業虧損高達24.5億美元。科再奇與英特爾董事會在任期初期便達成了一個高度一致、也極為嚴峻的判斷:一旦x86出現結構性問題,英特爾將失去生存根基。正是在這一共識之下,英特爾選擇以併購作為最激進、也是最直接的自救路徑,試圖通過外延式擴張為公司尋找新的增長曲線與技術支點。從2013年5月科再奇出任CEO,到2018年6月黯然離任的五年間,英特爾累計收購了約25至26家企業和業務部門,覆蓋網路處理、FPGA、AI計算、視覺感知與自動駕駛等多個方向。其中較具代表性的交易包括:2014年以6.5億美元收購LSI Axxia,2015年以3.45億美元收購Lantiq,同年以高達167億美元拿下FPGA巨頭Altera;2016年相繼收購Nervana Systems(約3.5–4.5億美元)與Movidius(4億美元),並在2017年以153億美元完成對Mobileye的重磅併購。僅這些公開披露的交易,累計金額就已高達約337–338億美元。那麼,這些巨額投資產生了什麼商業成果呢?答案令人沮喪:唯一剩下的成果是Movidius的AI引擎仍然被用於Core Ultra系列產品中,其餘的投資基本上都浪費掉了。Altera在分拆後以87.5億美元的價格將51%股份出售給Silver Lake,Mobileye在2022年IPO時估值約為170億美元,財務上雖然沒有虧損,但考慮到通貨膨脹等因素,實際上就是虧本買賣。對於英特爾而言,收購失敗的根本原因在於:試圖通過收購來解決戰略方向不清晰的問題。當公司不知道未來的方向在那裡時,就通過買買買來覆蓋所有可能性,結果是資源分散、整合失敗、戰略迷失。將高通的現狀與當年科再奇時代的英特爾對照來看,會發現兩者在戰略焦慮層面呈現出驚人的相似性。兩家公司都高度依賴單一核心業務——英特爾押注x86架構,高通幾乎將命運繫於手機晶片;一旦這一根基動搖,整個公司都會承壓。正因如此,雙方在業績尚未崩塌之際,管理層就已清晰感知危機,並選擇通過密集收購來加速多元化佈局,試圖在最短時間內培育新的業務支柱,以避險核心業務可能出現的系統性風險。但在執行路徑與所處環境上,高通與英特爾的境況已然不同。英特爾在五年內豪擲337–338億美元,收購25–26家公司,下注激進卻整合成效有限;相比之下,高通的併購明顯更加克制,已披露的最大交易僅為24億美元收購Alphawave,同時在Nuvia的整合上展現出更強的執行力,Oryon CPU已成功實現商業化落地。更重要的是,高通所面對的是一場路徑更為清晰的AI浪潮,相比英特爾當年應對移動網際網路衝擊時的猶疑與錯位,當前的市場機會更加明確、需求也更具確定性。但真正的懸念在於:高通能否找到清晰的戰略方向?從2025年的一系列動作來看,答案並不樂觀。高通AI晶片業務實際進展相當緩慢。今年5月,高通宣佈與沙烏地阿拉伯的Humain公司合作,為該地區的資料中心提供AI推理晶片。Humain承諾部署最多可使用200兆瓦電力的系統。但除此之外,高通尚未公佈其他重要客戶。而在收購規劃上,高通同時在物聯網(Arduino、Edge Impulse)、PC(Oryon)、伺服器(Alphawave、Ventana)、AI晶片(AI200/AI250)等多個方向發力,但每個方向都缺乏足夠的資源投入和清晰的路線圖。以Alphawave收購為例。高通花費24億美元收購這家SerDes IP供應商,理由是補齊資料中心關鍵IP。這個邏輯看似成立——高通確實需要SerDes技術來進軍資料中心市場。但問題在於,Alphawave不只是IP公司,它還有ASIC設計服務業務。高通是否真的打算進軍ASIC設計服務市場,與博通、聯發科競爭?如果是,為何在新聞稿中隻字未提?如果不是,那麼這部分業務的工程師將成為推進高通自身伺服器業務的瓶頸。這種戰略模糊性,正是英特爾當年的問題所在。結語如果把聯發科與高通直接對照,會發現兩條截然不同的路徑。聯發科選擇的是一條“窄而深”的路線:在雲端 AI 晶片浪潮中並不追求全面鋪開,而是牢牢鎖定 ASIC 設計服務這一細分賽道,把 SerDes 等關鍵能力做到極致,並通過與台積電的深度協同,將技術能力轉化為可量產、可交付的產品。更重要的是,它並未急於擴張邊界,而是圍繞Google、Meta 等頭部客戶持續打磨方案,從第一代產品穩步推進到下一代,在真實訂單和長期合作中建立起自己的位置。反觀高通,則更像是在多重不確定性中反覆試探方向。頻繁的收購動作表面上覆蓋了物聯網、邊緣 AI、EDA、互連等多個環節,但缺乏一條清晰的主線將這些資產真正串聯起來,協同效應始終模糊。AI200、AI250 等產品推進節奏落後於競爭對手,關鍵客戶背書遲遲未現;業務版圖橫跨 PC、伺服器、AI 晶片和物聯網,卻始終未能在任何一個新領域形成決定性突破。聯發科與高通的分化,折射出 AI 時代半導體競爭的基本邏輯正在發生變化。專注往往勝過多元,真正的護城河來自對核心技術的持續深挖;客戶關係的重要性正在超過單一產品,定製化能力和長期協作比“規格領先”更能帶來確定性收入;執行與交付比宏大的戰略敘事更關鍵,而收購本身從來不是答案,整合能力才決定成敗。時間窗口正在迅速縮小。當聯發科已經開始從Google TPU 相關訂單中獲得真金白銀的回報時,高通仍在為 2026 年、2027 年的產品節奏做準備。在 AI 晶片這樣高度競速的市場中,這種時間差很可能直接轉化為機會成本。AI 時代的競爭,早已不只是技術參數的比拚,而是戰略選擇、執行效率和生態整合能力的綜合較量。聯發科的進展與高通的焦慮,正是這場較量最直觀的註腳。 (半導體行業觀察)
共識逐漸形成:Google是最大的β
先說個題外話。今天看到一個陶哲軒與兒子對話講AI的視訊,其中有一段很有意思,是對於AI和數學、科學之間關係的比方。陶哲軒說:“我非常喜歡打的一個比方是:數學與科學就像飲用水。我們都需要優質的飲用水,而當前的科研產出就像一個水龍頭,它能流出一些可以飲用的水,但流速非常緩慢。(可以想像過濾水滴)而AI則像一根消防水帶,噴湧出巨量、高速的‘污水’,它無法直接飲用,但其量遠超過我們過去產出。所以我們需要的是一套過濾器,用以清除所有雜質,從而產出大量‘可飲用的’研究成果。在數學領域,我認為我們很有機會實現這一點,因為我們對驗證非常、非常在行。一個多世紀以來,我們已經理解了邏輯與數學的法則,甚至已經教會電腦如何檢驗輸出。科學領域則有實驗、臨床試驗和模擬模擬,這些雖不如形式化證明那樣嚴謹可靠,但我認為它們同樣可以類似的方式,用來過濾人工智慧的產出,確保其可信。所以我希望未來能從數學領域入手,探索如何在數學中安全使用人工智慧。而我們從中獲得的許多經驗,將能推廣至更廣泛的科學實踐中。”……這個比喻很有意思,而且角度很獨特,從頂尖數學家的角度提到了AI提高生產力的本質:大力出奇蹟,但頂尖工作不可靠,需要人類的智慧,而且可以產出比之前大量的多的頂級成果。最後會說一下陶哲軒的類比,先回到主題。市場最近有明顯的脈博,最近主要AI產業情緒都聚焦在Google方向,尤其是今天,沾谷就起飛。我不聊小作文這個那個,說說“為什麼光會如此之強”,是產業真的有巨大變化還是其他因素?以及,為什麼“蹭上Google就起飛”…聊4個話題(之前好幾篇文章都在寫Google以及TPU,這裡就不多說了)。1,為什麼“蹭上Google就起飛”?因為巨大的共識正在形成:Google引領AI產業前沿的推進,是2026年最大的β 。中午的內容:對於Google鏈的重視,我們已經討論過很多。Google的邏輯感興趣的朋友看之前文章G最近都在討論Google,一大堆,這裡就不廢話了。貼一個之前的總結:……最近Google又有了很大的進展:(1)首先是廣告。明年Gemini中會加入廣告。有人會說,OpenAI的廣告策略被噴夠嗆,Gemini在趟渾水。但根本問題在於OpenAI的廣告策略太激進,整體產品整合度不高、定價過貴的情況下,廣告就佔了太大的份量。而Gemini因為可以整合大量的Google應用,將Google 搜尋的使用者通過“免掉20美金/月”的方式匯入Gemini非常現實。即使在老美,很多人口口聲聲說不喜歡廣告,但他們中寧可看廣告也不願花20美金的佔絕大多數。這讓Gemini成為Google整個AI生態系統中可盈利的前端。(2)通用具身智能體開始“多才多藝”,不依賴指令可以實現自我進化Google DeepMind最近悄咪咪的發了個大論文:SIMA2:面向虛擬世界的通用具身智能體。論文提到:“我們推出SIMA2,這是一款通用型實體代理,能夠理解和在種類繁多的3D虛擬世界中進行操作。基於Gemini基礎模型建構而成的SIMA2,標誌著在實體環境中實現主動,目標導向互動方面邁出了重要一步。與以往僅限於處理簡單語言指令(如SIMA1)的工作不同,SIMA2扮演著互動夥伴的角色,能夠對高級目標進行推理,與使用者進行對話,並處理通過語言和圖像形式給出的複雜指令。在多樣化的遊戲場景中,SIMA2顯著拉近了與人類表現之間的差距,並展現出對先前未見環境的強大泛化能力,同時保留了基礎模型的核心推理能力。此外,我們還展現了進行開放式自我提升的能力:通過利用Gemini來生成任務並行放獎勵,SIMA2能夠自主地從零開始在新環境中學習新技能。這項工作為建立既能適應虛擬環境,最終又能適用於實體世界的多才多藝且持續學習的智能體開闢了一條可行路徑。”……這裡的SIMA2不僅玩遊戲玩得非常好,而且它正在縮小人類直覺和機器行為之間的根本性認知差距,可以通過“目標指向、跨環境學習來實現自我提升”。大概就是我們“根據自我認識、同時通過自我學習”實現一項專業技能的路徑。具體能力上,SIMA2已經極大的縮小了和人類的差距:實際上,Google想把SIMA2打造成“一種人類世界的架構”。在這種架構下,Agent不再等待指令,SIMA2可以看作我們敲開了自主能力時代的大門。舉個例子,如果現在的Agent,我們理解的需求是:幫我買個手機。那麼SIMA2打造的是一個私人助理:幫你安排好每天的早飯、定好行程、約好會面地點,同時因為知道你手機容量不足,主動幫你安排好了一部新手機,供你隨時更換。而且都是成套的自主行為,不需要你交代具體做什麼,SIMA2可以完成複雜的完整任務,你只需要告訴Agent,安排好我明天日常的工作日程,並處理相關任務,而不用“發個郵件給某某”、“與某某溝通什麼事情”、“幫我預定中午的雙人午餐”等等…SIMA2就是你的真正的助理,而且可以自我學習,能越做越好。當然,現在這一切發生在遊戲裡。但很顯然,Google正在快速的建構自己的AI技術->產品->利潤飛輪。我們看今年下半年的使用者增長:Gemini在新增使用者總數方面也已經與ChatGPT展開全面PK,9月份超過了ChatGPT,10月份緊隨其後位居第二,11月份又超過了ChatGPT:當Google跑通AI的整個鏈條,那麼Google將持續爆發。一旦形成共識,Google鏈都將享受巨大的共識溢價。2,Google最核心競爭力在TPU,而TPU成功的關鍵在於OCS粘一段之前的內容:Google TPU不同於其他ASIC最大的關鍵就是光互聯,對於高端光模組的需求暴增,同時OCS交換機為 TPU提供了互聯的巨大成本和功耗優勢,Google可以通過非常激進的競爭策略贏得這場競爭。…結論:(1)Gemini 3是Google首次擁有SOTA或SOTA Par的模型,這意味著Google已經在AI模型競賽中從躍升成為領先者,至少並駕齊驅(GPT-5.2重回SOTA,但領先優勢不大);(2)Gemini 3+TPU,以及GCP業務的加速,讓Google可以繼續席捲使用者,最近在印度和OpenAI通過免費的方式吸引客戶,就是明確的訊號;(3)Google成為贏家逐漸成為共識,Google鏈會持續享受共識溢價,對利多極其敏感:臨近年底,值得興奮的事兒不多,市場也趨於保守。但無論如何,Google鏈的挖掘,依然是今年剩下一點時間,以及明年的最重頭戲,我們將持續保持跟蹤。 (橙子不糊塗)
Google終於對輝達“護城河”下手!聯合Meta進軍軟體
據路透社報導,知情人士透露,Alphabet旗下的Google正在制定一項新計畫,旨在使其人工智慧晶片更好地運行PyTorch(全球使用最廣泛的人工智慧軟體框架),此舉旨在削弱輝達在人工智慧計算市場長期佔據的主導地位。這是Google雄心勃勃計畫的一部分,旨在使其張量處理單元(TPU)成為輝達市場領先的GPU的有力競爭對手。TPU的銷售已成為Google雲收入的關鍵增長引擎,Google希望借此向投資者證明其人工智慧投資正在產生回報。但僅靠硬體不足以推動普及。消息人士稱,這項內部代號為“TorchTPU”的新計畫旨在消除阻礙TPU晶片普及的關鍵障礙,使其完全相容並方便開發者使用,從而惠及那些已經使用PyTorch軟體建構技術基礎設施的客戶。一些知情人士還透露,Google正在考慮開源部分軟體,以加快客戶採用速度。消息人士稱,與之前嘗試在TPU上支援PyTorch相比,Google投入了更多的組織關注、資源和戰略重視TorchTPU,因為希望採用這些晶片但認為軟體堆疊是瓶頸的公司的需求不斷增長。PyTorch是一個開放原始碼專案,由Meta Platforms大力支援,是開發者建構人工智慧模型時最廣泛使用的工具之一。在矽谷,很少有開發者會編寫輝達、AMD 或Google等公司晶片實際執行的每一行程式碼。相反,這些開發者依賴於像PyTorch這樣的工具。PyTorch是一系列預先編寫的程式碼庫和框架的集合,可以自動完成人工智慧軟體開發中的許多常見任務。PyTorch最初發佈於2016年,其發展歷程與輝達的CUDA開發密切相關。一些華爾街分析師認為,CUDA是輝達抵禦競爭對手的最強屏障,堪稱“護城河”。輝達的工程師們多年來一直致力於確保使用PyTorch開發的軟體在其晶片上以儘可能高的速度和效率運行。相比之下,Google長期以來一直讓其龐大的內部軟體開發團隊使用名為Jax的不同程式碼框架,其TPU晶片則使用名為XLA的工具來最佳化程式碼運行。Google自身的大部分AI軟體棧和性能最佳化都是圍繞Jax建構的,這進一步拉大了Google晶片的實際使用方式與客戶實際使用方式之間的差距。Google雲發言人沒有對該項目的具體細節發表評論,但證實將為客戶提供更多選擇。發言人表示:“我們看到市場對TPU和GPU基礎設施的需求都在大幅增長,而且增長速度還在加快。我們的重點是提供開發者所需的靈活性和可擴展性,無論他們選擇使用那種硬體進行開發。”Alphabet長期以來一直將絕大部分自研晶片(即TPU)僅供內部使用。這種情況在2022年發生了改變,當時Google的雲端運算部門成功遊說,獲得了對TPU銷售部門的監管權。此舉大幅增加了Google雲的TPU分配量,隨著客戶對人工智慧的興趣日益濃厚,Google也開始尋求通過擴大TPU的生產和銷售來從中獲利,並將TPU推向外部客戶。但由於全球大多數人工智慧開發者使用的PyTorch框架與Google晶片目前最佳化運行的Jax框架之間存在不匹配,大多數開發者無法輕易地採用Google晶片並使其性能達到輝達晶片的水平,除非進行大量的額外工程工作。在瞬息萬變的人工智慧競賽中,這樣的工作需要耗費時間和金錢。如果成功,Google的“TorchTPU”計畫將顯著降低企業尋找輝達GPU替代方案的成本。輝達的統治地位不僅得益於其硬體,也得益於其CUDA軟體生態系統。CUDA軟體生態系統深度嵌入PyTorch,並已成為企業訓練和運行大型AI模型的默認方法。消息人士稱,企業客戶一直告訴Google,TPU更難應用於AI工作負載,因為TPU歷來要求開發人員切換到Jax(Google內部偏愛的機器學習框架),而不是大多數AI開發人員已經在使用的PyTorch。據消息人士透露,為了加快開發速度,Google正與PyTorch的建立者和管理者Meta密切合作。這兩家科技巨頭一直在商討Meta獲取更多TPU的方案。Meta早期提供的服務以Google管理服務的形式呈現,客戶(例如Meta)安裝Google設計的晶片來運行Google的軟體和模型,Google則提供營運支援。知情人士透露,Meta對開發能夠簡化TPU運行的軟體抱有戰略興趣,旨在降低推理成本,並使其人工智慧基礎設施擺脫對輝達GPU的依賴,從而提升談判優勢。今年,Google開始直接向客戶的資料中心銷售TPU,而不是限制在其自有雲平台上使用。本月,Google老將Amin Vahdat被任命為人工智慧基礎設施負責人,直接向首席執行長桑達爾·皮查伊匯報工作。Google需要這種基礎設施,既可以運行自己的AI產品(包括Gemini聊天機器人和AI驅動的搜尋),也可以為Google雲的客戶提供服務,Google雲向Anthropic等公司出售TPU的存取權。 (北美商業見聞)
GoogleTPU挑戰GPU王座!讓Anthropic省下30%算力,買的TPU越多,省下的輝達GPU支出就越多!
面對GoogleTPU的攻勢,輝達開始緊張了。Google的 Gemini 3 和 Anthropic 的 Claude 4.5 Opus 等前沿模型,並非使用輝達硬體訓練,而是運行在Google最新的 Ironwood 架構 TPUv7 上。TPU 的成果無需多言:Gemini 3 是全球最強模型之一,而且完全在 TPU 上訓練。連山姆·奧特曼也公開承認,Gemini 搶走了 OpenAI 的風頭,“前景有些不妙”。這意味著,一種可行的 GPU 替代方案已經到來。輝達也慌了,趕緊發佈了一份安撫性的新聞稿,告訴所有人保持冷靜,我們仍然遙遙領先。輝達的緊張不難理解,這幾個月對 Google DeepMind、GCP 和 TPU 戰線而言是一路大勝:TPU 產量預期大幅上調Anthropic 超過 1GW 的 TPU 採購Gemini 3 和 Claude 4.5 Opus 在 TPU 上拿下 SOTA客戶名單迅速擴大(Meta、SSI、xAI、OAI 全部被瞄準)為什麼在 Blackwell 還沒完全鋪開、輝達的 GPU 帝國依然銅牆鐵壁的情況下,TPU 卻突然具備了挑戰 GPU 的實力?——輝達的統治地位要結束了嗎?這一切還得從2006年開始嘮起。GoogleTPU:從內部自用走向商業化早在 2006 年,Google就開始推銷建構專門 AI 基礎設施的想法, 但問題在 2013年發生了轉變。Google開始意識到,如果想在任何規模上部署人工智慧,就必須將現有的資料中心數量翻倍。因此,他們開始為 TPU 晶片奠定基礎,並於 2016 年投入生產。TPU 協議棧長期以來一直與輝達的 AI 硬體抗衡,但它主要支援Google內部工作負載。過去,Google只通過 Google Cloud Platform 出租 TPU,外部團隊無法直接購買。直到最近,Google開始將 TPU 硬體直接出售給企業客戶。關鍵轉折點在於Google與Anthropic達成的戰略協議。今年九月初,就有消息稱Anthropic 作為主要外部客戶之一, 需求至少有 100 萬個 TPU。這一消息在十月得到了 Anthropic 和Google的正式確認 。關於 100 萬顆 TPU 的分配結構:通過Google長期的硬體設計合作夥伴博通,約有 40 萬顆晶片直接銷售給 Anthropic剩餘的 60 萬顆晶片通過傳統的Google雲合同租賃據SemiAnalysis報導,Anthropic 的承諾為Google的利潤增加了數十億美元。此外,Meta 也是 TPU 的大客戶。即便作為競爭對手,OpenAI也計畫租賃GoogleTPU。有消息稱,今年OpenAI 希望通過 Google Cloud 租賃的 TPU 能夠幫助降低推理成本,這可能會推動 TPU 成為輝達 GPU 更廉價的替代品。值得注意的是,OpenAI 甚至還沒有部署 TPU,僅僅是存在可行的替代方案,就爭取到了輝達GPU大約 30%的折扣。因此有分析師調侃道:“你買的TPU越多,你節省的輝達GPU支出就越多。”這句話真是狠狠打臉了老黃在介紹BlackWell時那句知名的口號:“買得越多,省得越多。”為什麼 Anthropic 想要 TPU:節省約30%的成本!從紙面規格看,TPUv7 “Ironwood” 的理論算力(FLOPs)和記憶體頻寬已經接近輝達最新一代 Blackwell GPU。但真正的殺手鐧是:TPU極低的總擁有成本(TCO)。根據分析:Google 內部使用 TPU 的每晶片 TCO 比同級 GB200 系統低約 44%;即使是像 Anthropic 這樣的外部客戶(需要支付Google的利潤),每單位有效算力的成本依然比輝達系統低 30~50%。TPU 的架構還帶來天然擴展優勢:Google的系統能把 9,216 顆晶片聯成一個高密度的訓練域;而傳統輝達系統通常只有 64~72 顆晶片能做到緊密互聯。這使得 TPU 更適合超大規模 AI 訓練任務。另一個關鍵因素是 Anthropic 的工程實力。團隊中有前 Google 編譯器專家,既熟悉 TPU 軟體棧,也精通自家模型架構。他們可以通過定製核心提升 TPU 利用效率,從而實現 更高的模型 FLOP 利用率(MFU) 和更優的 $/PFLOP 性能。綜合考慮更低的 TCO 和更高的有效算力:對Google來說,每個有效 FLOP 的成本更低;盈虧平衡點僅需約 15% 的 MFU,而 GB300 則需 30% 的 MFU。換句話說,即便Google或 Anthropic 僅實現 GB300 FLOPs 的一半,成本也能持平。憑藉頂尖的編譯器團隊和對模型的深度理解,Anthropic 在 TPU 上的 MFU 潛力甚至可能達到 40%,這意味著每單位有效訓練 FLOP 的成本可降低約 62%,帶來巨大的經濟優勢。Google試圖打破 CUDA 鎖定效應長期以來,軟體生態是 TPU 最大的短板。和所有非輝達加速器一樣,TPU 生態系統中的外部開發者數量遠少於 CUDA 生態系統。CUDA 是行業標準,開發者要遷移到 TPU 需要重寫大量工具鏈。但現在情況正在改變,因為Google正在三件事上投入大量資源:讓 PyTorch 在 TPU 上原生運行TPUv7 支援原生 PyTorch 整合,包括急切執行、完全支援分佈式 API、torch.compile 以及 PyTorch 工具鏈下的自訂 TPU 核心支援。目標是讓 PyTorch 能像在 Nvidia GPU 上一樣輕鬆運行 TPU。整合主流推理庫(如 vLLM)Google還大力參與 vLLM 和 SGLang 這兩個流行的開源推理框架,並宣佈通過一個非常“獨特”的整合,支援 vLLM 和 SGLang 的測試版 TPU v5p/v6e。最佳化編譯器自動平行能力Google的目標很明確:讓開發者無需重建生態,就能無痛切換到 TPU。不過,TPU 軟體棧的核心XLA 編譯器仍未開源,文件也不完善。這導致從高級使用者到普通使用者都感到沮喪,無法偵錯程式碼出了什麼問題。此外,他們的 MegaScale 多重訓練程式碼庫也不是開放原始碼的。SemiAnalysis 認為,如果能開源,將顯著降低 TPU 的採用門檻。此外,為了讓數十萬顆 TPU 快速落地,Google 還採用了一種非常激進的融資策略:與新型雲服務商(Neocloud)合作,如 Fluidstack與加密礦場營運商合作,如 TeraWulf在這些交易中,Google充當“最終兜底者”,如果營運方失敗,Google 保證繼續支付租金。這使得大量舊的加密挖礦資料中心被迅速改造成 AI 資料中心,也讓 TPU 的部署速度大幅提升。這對輝達來說意味著什麼?面對Google的威脅,輝達正在準備反擊。其下一代 “Vera Rubin” 晶片,預計將在 2026~2027 年推出,將採用相當激進的設計,包括:HBM4 高頻寬記憶體新一代互聯與系統架構而Google計畫中的應對方案 TPUv8,則採用了雙重策略。據瞭解,Google計畫發佈兩個變體:一個與長期合作夥伴博通(代號“Sunfish”)共同開發,另一個與聯發科(代號“Zebrafish”)合作開發。但TPUv8的設計稍顯保守。有分析師指出,該項目存在延誤,且依賴架構避免了競爭對手中激進使用台積電的 2 奈米工藝或 HBM4。SemiAnalysis也指出,一開始,Google在矽晶片設計理念上相較於輝達更為保守。歷史上,TPU 出廠時峰值理論 FLOP 數量明顯少於相應的輝達 GPU 和更低的記憶體規格。如果輝達 Rubin 按計畫實現性能躍升,TPU 當下的成本優勢可能會被徹底抹平。甚至可能出現,輝達 Rubin(特別是 Kyber Rack)比 Google TPUv8 更便宜、更高效的情況。此外,TPU 也並非完美。它在特定深度學習場景中表現出色,卻遠不如 GPU 靈活。GPU 能運行各種演算法,包括非 AI 工作負載。如果明天出現一種全新的 AI 技術,GPU 基本可以立即運行;TPU 則可能需要編譯器或核心最佳化。此外,從 GPU 體系遷移出來的成本依然高昂,特別是對於深度依賴 CUDA、自訂 kernel 或尚未針對 TPU 最佳化的框架的團隊。WEKA 的首席人工智慧官Val Bercovici 建議:“當企業需要快速迭代、快速上市時,應選擇 GPU。GPU 使用標準化基礎設施、擁有全球最大的開發者生態、適合動態複雜的工作負載,並能輕鬆部署在現有本地資料中心,而無需進行電力或網路的重構。”由於 GPU 更普及,對應工程人才也更多。TPU 則需要更稀缺的技能。Bercovici 也表示:“要充分發揮 TPU 的潛力,需要能寫自訂 kernel 與最佳化編譯器的工程深度,這類人才極為稀缺。”總的來說,AI 硬體的競爭愈演愈烈,但現在預測誰將獲勝還太早,甚至無法確定是否會有一個唯一的贏家。TPU 的性價比和架構優勢確實讓人眼前一亮,但輝達的 GPU 在生態、軟體和成熟度上依然不可小覷。在輝達、Google快速迭代,以及亞馬遜也加入競爭的背景下,未來性能最高的 AI 系統很可能是混合架構,同時整合 TPU 與 GPU。 (51CTO技術堆疊)
比GPU性能更強?TPU全解析(AI算力、Google、輝達、智算中心)
AI能在幾秒內處理百萬條資料,背後靠的是什麼晶片?常聽人說GPU支撐AI算力,那TPU又在起什麼作用?它和我們手機裡的晶片有本質區別嗎?實際上TPU就像AI的專屬廚師,專門做AI最需要的算力工作,不多但精準高效。一、TPU1、TPU不是一開始就為通用AI設計的很多人以為TPU從誕生就針對大模型訓練,其實它最初是Google為自家業務定製的工具。Google ML發展關鍵時間線(2011-2015)2015年前後,Google的搜尋排序、語音識別這些服務需要大量重複的數值運算,當時的GPU處理起來總有些力不從心,要麼速度不夠,要麼耗電太多。Google工程師乾脆重新設計晶片架構,把所有計算資源都集中在這類運算上,這就是第一代TPU的由來。後來大模型興起,大家才發現這種架構剛好符合AI的需求,TPU才從Google內部走向公開市場。TPU v12、TPU不用常見的快取設計普通電腦和手機晶片裡,快取是個重要部件,就像書桌邊的抽屜,常用的東西放裡面方便拿。可是TPU不怎麼依賴快取,反而用了超大頻寬的記憶體。這是因為AI運算的特點和普通計算不一樣,它需要處理海量連續的資料,比如一張圖片的像素點或者一段文字的編碼,這些資料要不斷輸入計算單元。快取的容量再大也裝不下這麼多連續資料,換成高頻寬記憶體,就能像消防水管送水一樣,把資料快速送到計算部分,反而更高效。二、晶片設計1、架構設計TPU的設計第一步就是設計架構,這就像蓋房子先畫圖紙,決定了晶片的性能上限。架構設計要先明確晶片的用途,是給大模型訓練用,還是給智能音箱這類裝置做推理用。訓練用的TPU需要更強的平行計算能力,能同時處理海量資料;推理用的TPU則更看重能效比,不能太耗電。Google最新的Trillium TPU就是典型的訓練型架構,把多個計算部分連在一起,還最佳化了資料傳輸的路徑,相比上一代訓練速度提升了4倍多,能耗反而降了不少。TPU v4 架構2、演算法適配比單純增加參數更重要設計TPU不能只看硬體參數,還要和AI演算法配合好。不同的AI模型,比如圖像識別和語言翻譯,運算邏輯不一樣。如果晶片架構和演算法不匹配,就算參數再高也沒用,就像用菜刀砍骨頭,再鋒利也不如斧頭順手。Google的TPU能在Gemini模型上做得很好,就是因為設計時針對多模態模型的運算特點做了最佳化,比如加強了對圖像和文字混合資料的處理能力。國內企業設計TPU時,也會針對政務、金融這些領域的特定演算法做調整。人工智慧模型訓練計算量趨勢圖3、IP核採購TPU設計不用所有部分都從零開始,有些通用模組可以直接買現成的IP核。IP核就像現成零件,比如記憶體控製器、介面模組這些,有專業公司專門研發銷售。買IP核能節省大量時間,不用再花幾年研發這些成熟技術,還能降低風險。大部分中小設計企業都會用這種方法,只專注於TPU主要計算部分的設計。Google這樣的大企業,為了追求最好的性能,會自己研發所有IP核,但投入的研發費用往往要數十億。三、晶圓1、矽片TPU的製造要從矽片開始,這種高純度的矽片表面光滑,純度要達到99.9999999%以上,一點雜質都可能影響晶片性能。矽片的尺寸也很重要,現在主流是12英吋矽片,一片就能切割出幾百個TPU晶片,比小尺寸矽片的效率高很多。生產矽片的過程很複雜,要經過晶體生長、切片、拋光等幾十道工序,國內的中環股份、滬矽產業都能生產這種高純度矽片,不過高端產品還需要進口。2、光刻光刻就像給矽片刻上電路圖案,是製造環節最重要的一步。這個過程需要用光刻機,把設計好的電路圖案通過雷射投射到塗了光刻膠的矽片上,再用化學藥劑蝕刻,形成電路紋理。TPU的製程越先進,光刻的難度就越大。目前主流的TPU用7奈米或5奈米製程,需要極紫外光刻機才能完成。全球能生產這種光刻機的企業很少,台積電就是靠掌握先進光刻技術,成為Google、蘋果等企業的TPU代工廠。3、摻雜工藝矽本身的導電性能一般,需要通過摻雜工藝來調整。簡單來說就是在矽片的特定區域注入硼、磷這些雜質,形成PN接面,這樣才能控制電流,讓晶片完成計算。摻雜的精度要求極高,雜質的濃度和注入深度都要精確到奈米等級。不同的計算部分,摻雜的參數不一樣,比如TPU的主要計算區域需要更高的導電效率,摻雜濃度就會高一些;而外圍的控制區則需要更穩定的性能,摻雜參數會更穩。四、封裝測試1、封裝晶圓切割成單個晶片後,下一步就是封裝。封裝主要有三個作用:一是保護晶片不受潮濕、灰塵這些外界環境影響;二是引出晶片的電極,方便和外部電路連接;三是幫晶片散熱——TPU工作時會發熱,封裝材料和結構都影響散熱效果。訓練用的TPU功率大,所以會用更複雜的倒裝封裝技術:把晶片正面朝下貼在基板上,這樣散熱路徑更短。國內像長電科技、通富微電這些企業都能做TPU封裝,技術水平和國際企業差不了多少。2、測試要過三道關封裝好的晶片不能直接出廠,得經過嚴格測試,主要有三道關。第一道是性能測試,用專門裝置給TPU輸入測試資料,檢查計算速度、精度這些指標是否符合要求——Google的TPU還會專門測試在Gemini模型上的訓練效率。第二道是穩定性測試,把TPU放在高溫高濕的環境裡連續工作幾百小時,看看會不會出故障。第三道是功耗測試,測測不同負載下的耗電量,確保符合設計要求。不合格的晶片會被標記淘汰,合格率直接關係到企業的成本。能效比例3、模組化設計現在的TPU大多用模組化封裝,把多個晶片整合到一個模組裡——比如Google的TPU Pod就是由好幾個TPU晶片組成的。這種設計有兩個好處:一是組合起來方便,根據需求拼接不同數量的模組,就能滿足不同的算力需求;二是維護起來省事,如果某個晶片壞了,只換對應的模組就行,不用把整個裝置都廢掉。智算中心裡的TPU叢集都用這種方式,維護人員不用拆開晶片,直接換模組就能解決問題,能省不少停機時間。五、材料供應1、聚氨酯材料這裡說的聚氨酯材料和晶片不是一回事,但在TPU產業鏈裡也挺重要的。汽車車衣用的就是熱塑性聚氨酯材料,彈性好、耐老化,還能防刮擦。張家界有家企業專門做這種材料,全球市場佔有率能到90%,連阿迪達斯的運動鞋都用他們的TPU膠膜來粘接。生產這種材料需要高品質的聚酯多元醇,國內的華峰化學通過收購企業,打通了從原料到成品的全鏈條,成本比進口材料低很多。2、光刻膠光刻膠是光刻環節必須用的材料,塗在矽片表面,經過雷射照射後會發生化學反應,形成可以蝕刻的圖案。光刻膠的質量直接影響電路精度,先進的5奈米製程得用極紫外光刻膠,這種材料研發難度很大,成分配比要精確到百萬分之一。現在國內企業已經能生產28奈米製程用的光刻膠,高端的還得從日本或者美國進口。光刻膠的儲存條件也挺嚴格,得放在低溫環境裡,不然會失效。3、散熱材料TPU工作時產生的熱量要是不能及時散出去,會影響性能甚至縮短壽命,所以散熱材料就很關鍵。封裝環節會用到散熱膏和散熱片:散熱膏填在晶片和散熱片之間的縫隙裡,能提高導熱效率;散熱片則增大散熱面積,把熱量傳到空氣裡。大功率的TPU叢集還需要專門的液冷散熱系統,用冷卻液把熱量帶走。國內像高瀾股份、同飛股份做的液冷系統,已經用到不少智算中心的TPU叢集裡了,散熱效率比傳統的風冷高3倍多。六、終端整合1、智算中心是TPU的主要陣地智算中心就像TPU的大本營,很多TPU在這裡組成叢集,給AI企業提供算力服務。天津移動建的TPU智算中心,通過最佳化叢集佈局和散熱系統,單位算力成本降了很多。這些智算中心會根據客戶需求,提供不同的算力套餐:比如給科研機構提供大模型訓練用的高算力服務,給中小企業提供智能客服推理用的輕量算力服務。像視拓雲這樣的企業,還把TPU算力做成了零售業務,客戶按需購買就行,不用一次性投很多錢建機房。2、汽車行業TPU在汽車行業的應用分兩種:一種是晶片,一種是材料。晶片方面,有些智能汽車的自動駕駛系統會用TPU做推理,處理攝影機和雷達傳來的路況資料,判斷行人和車輛的位置。材料方面,汽車車衣用的熱塑性聚氨酯材料越來越常見,納琳威做的真漆車衣,還能適配特斯拉賽博皮卡的不鏽鋼車身,貼合度特別高。易車和邦泰集團合作研發車用TPU粒子,做成的車衣性價比更高,已經覆蓋了從一線到三四線城市的門店。3、小型化TPU智慧型手機、智能音箱這些消費電子產品,需要的是小型、低功耗的TPU。智能音箱裡的TPU,主要負責語音識別的推理,能把使用者的語音指令快速轉成文字,還能理解意圖。這種TPU尺寸很小,有的只有指甲蓋那麼大,功耗也低,一節電池就能支援長時間工作。國內的瑞芯微、全志科技都做這類小型TPU,很多智能家電廠商都會買。有些高端耳機裡也會裝小型TPU,用來最佳化降噪演算法。Coral Edge TPU與NVIDIA GTX 1080 GPU在最大功耗和每瓦特運算性能上的對比七、市場規模情況1、全球市場增長速度很快TPU所屬的智能算力市場,這幾年漲得特別快。2024年全球AI算力市場中,GPU和TPU主導的智能算力規模超過了750億美元。有機構估計,2025年這個數字會跳到3500億美元,差不多翻五倍。這當中TPU的佔比還在慢慢上升,特別是Google推出Trillium TPU後,不少企業開始換成TPU來做訓練和推理。Meta甚至打算從2027年開始,在自家資料中心裡裝Google的TPU,這筆單子說不定能到幾十億美元呢。2、中國市場增速超過全球平均中國智能算力市場的增長速度比全球平均還要快。根據IDC和浪潮資訊的報告,2025年中國人工智慧算力市場規模能到259億美元,比去年漲了36.2%。TPU的用途現在越來越多,政務、金融、製造這些行業都在往裡面砸錢。天津、上海這些大城市都在蓋TPU智算中心,中國移動打算到2028年底建成本國最大的智算設施,裡面會裝很多國產TPU。國產TPU的市場份額也在往上走,寒武紀、華為的TPU在國內政務領域用得已經挺多了。3、不同應用場景的市場差異大TPU的市場分佈不太均勻,智算中心佔了大部分,大概能有70%以上。為何呢?因為大模型訓練和推理需要好多TPU湊成叢集,一套裝置的投入就不低。汽車行業的TPU市場漲得最快,特別是自動駕駛和車衣材料這兩塊,2025年的漲幅可能超過50%。消費電子領域的TPU市場規模不算大,但勝在穩,每個智能裝置裡都得有個小TPU,賣出去的數量特別多。材料類的TPU市場也不小,光汽車車衣和運動鞋這兩個地方,全球一年賣的錢就超過一百億美元。八、市場競爭態勢1、Google和輝達國際上TPU市場主要是Google和輝達在搶地盤,不過兩家擅長的地方不一樣。Google的TPU在AI訓練這塊優勢很明顯,特別是和自家Gemini模型搭著用的時候,效率比輝達的GPU高不少,還更省電。輝達則在生態這塊更厲害,好多AI框架都先適配GPU,企業要換成TPU得調整演算法,難度相對大一點。但這種情況正在改變,Google通過雲服務把TPU租給其他公司,Meta這樣的大公司也開始考慮用了,Google在市場上的說話份量慢慢變重了。2、國內企業細分領域國內的TPU企業沒直接和Google、輝達硬碰硬,而是從細分領域入手。寒武紀的TPU主要針對政務和金融行業,這些地方對安全性要求高,國產晶片更吃香。華為的TPU則和自家鴻蒙系統、雲服務綁在一起,在智能汽車和工業網際網路這塊推。材料領域的國內企業表現更亮眼,張家界齊匯新材料在運動鞋用TPU膠膜市場佔了全球90%的份額,邦泰集團在車用TPU粒子這塊的國內市場佔比超過60%。這些企業通過盯著細分市場做,給自己築起了一道競爭的牆。九、需求分析1、網際網路科技巨頭網際網路科技巨頭是TPU的主要客戶,尤其是那些做AI大模型的公司。Google、Meta、百度、阿里這些企業,每年都會買好多TPU搭成算力叢集,用來訓練模型和做推理。他們買TPU的時候最看重性能和穩不穩定,對價格不太在乎。Google自己做TPU,同時也把算力租給其他公司;百度則混著用國產和進口TPU,重要業務用進口的,邊緣業務用國產的來省錢。這些巨頭買的量很大,一單就能佔企業年銷售額的20%以上。2、製造企業製造企業買TPU主要用在兩個地方,一是生產線上的智能檢測,用TPU處理攝影機拍的產品圖片,找出缺陷;二是生產TPU材料做的東西,比如汽車零件、運動鞋材料。這些企業買的時候最看重性價比,不會瞎買高端產品。汽車零件廠商會選國產的中低端TPU晶片,足夠滿足檢測需求,價格比進口的低30%以上。買材料這塊,他們會和供應商長期合作,比如阿迪達斯就把齊匯新材料當成最大的TPU膠膜供應商,兩家還一起研發新產品。3、科研機構和政務部門科研機構和政務部門買TPU,安全是第一個要考慮的。高校和科研院所買TPU主要用來研發AI演算法,他們需要晶片能靈活擴展,適配不同的實驗場景。政務部門買的TPU則主要用在人口統計、交通管理這些地方,資料很敏感,必須用通過安全認證的國產晶片。寒武紀的TPU就通過了好幾個政務安全認證,在好多城市的智能交通系統裡都在用。這些客戶買的量雖然不如巨頭,但訂單穩,給錢也比較快。十、TPU和GPU誰更厲害1、訓練場景TPU更有優勢在AI模型訓練場景裡,尤其是大模型訓練,TPU的優勢很明顯。因為訓練過程需要反覆做矩陣運算,TPU的架構就是專門為這個做的,所有計算資源都集中在這事兒上,沒有多餘功能浪費資源。Google的Trillium TPU訓練Gemini模型時,速度比輝達最新的GPU快4倍,能耗卻低67%。這就意味著訓練同一個模型,用TPU能省好多時間和電費,對經常要訓練模型的企業來說,這筆省下來的錢可不少。2、推理場景兩者各有千秋推理場景就是模型訓練完後,處理實際資料的過程,比如語音識別、圖像分類。這種場景下TPU和GPU各有各的好,得看具體用在那兒。如果是單一任務的大量推理,比如智能音箱的語音識別,TPU更高效,成本也更低。如果是複雜的多工推理,比如自動駕駛同時處理路況、行人、交通燈這些資訊,GPU的通用性更強,能同時處理不同類型的運算,更佔優勢。好多企業會混著用,簡單任務用TPU,複雜任務用GPU。3、生態完善度GPU領先雖然TPU在性能上有優勢,但GPU的生態更成熟,這也是好多企業不願換的原因。現在市面上大部分AI框架、演算法庫都是先適配GPU的,企業要是改用TPU,得重新調整演算法程式碼,還要培訓工程師,花的錢不少。Google為了打破這個局面,做了兩件事:一是開放自己的AI框架,讓開發者更容易適配TPU;二是通過Google雲提供TPU算力服務,企業不用自己買晶片,直接租就能用,降低了換用的難度。隨著越來越多企業試著用,TPU的生態也在慢慢變好。 (小叔報告)
中美AI算力中盤博弈:開放與封閉之爭
近日,GoogleTPU攜Gemini3逆襲之勢大幅拓寬增量前景,Meta考慮斥資數十億美元為其買單,機構將TPU產量預期上調67%至500萬塊。基於“晶片-光交換網路-大模型-雲服務”全鏈閉環,Google智算體系重回AI賽道前沿梯隊,標誌著美式封閉壟斷路線更進一步。與此同時,以DeepSeek為代表的開源模型緊追不捨。月初,DeepSeek V3.2及其長思考增強版模型出爐,前者在性能測試中打平ChatGPT,後者直接對標閉源模型頂流Gemini。這也預示著中國開源開放路線漸入佳境,國產智算體系在應用層展現出良好的生態協同潛力。至此,中美AI產業博弈棋至中盤,“開放協同”與“封閉壟斷”對位格局愈發清晰。尤其在智算生態佈局中,兩大陣營或正醞釀著一場體系化能力的巔峰較量。從Gemini 3到TPU v7,軟硬一體閉環臻至極境毋庸置疑,GoogleTPU的突然走紅,很大程度得益於Gemini3的模型能力驗證。作為專為GoogleTensorFlow框架而生的ASIC晶片,TPU憑藉軟硬體一體化設計為其全端閉環完成奠基,同時也在上層應用高位突破時俘獲外部使用者市場,甚至一度被視為輝達GPU的最強平替。所謂“軟硬一體化”,即硬體的設計完全服務於上層的軟體和演算法需求。如Gemini 3訓練和推理過程高度適配TPU叢集,而這種定製化專用模式也在功耗能效方面展現出極高價值——TPU v5e的功耗僅為NVIDIA H100的20%-30%,TPU v7每瓦性能較前代產品翻倍增長。目前,Google通過“晶片+模型+框架+雲服務”的垂直整合,形成了一個封閉且高效的循環。一方面極大地提升了自身AI研發和應用開發效率,另一方面也在NV主流體系下裂土而治,奪得又一智算賽道主導權,Meta對TPU的採購意向則將這一體系熱度推向了高點。業內有觀點指出,從蘋果到Google,美式的垂直封閉玩法幾乎臻至極境,表現出科技巨頭為鞏固和擴張利益版圖,在產業鏈層面泛在的壟斷慾望。但從生態發展角度來看,封閉模式缺乏長期主義精神,極易導致產業長下游喪失創新活性,並形成單一主體高度集權的格局。另外,從TPU的應用場景來看,軟硬一體閉環儼然是專屬於巨頭的遊戲。某分析人士稱,Google的叢集化設計和“軟體黑盒”,需要使用者重新配置一整套異構基礎設施。如果沒有兆參數模型訓練需求,根本填不滿TPU的脈動陣列,省下的電費可能都抵消不了遷移成本。同時,由於TPU技術路線極為封閉,與主流開發環境無法相容,使用者還需要一支專業的工程團隊駕馭其XLA編譯器,重構底層程式碼。也就是說,只有像Google、Meta這種等級的企業才有資格轉向TPU路線,也只有算力規模達到一定程度才能發揮出定製化產物的能效優勢。不可否認,Google等頭部企業通過垂直整合自建閉環,在局部賽道快速實現單點突破,同時也造就了美國科技巨頭林立的蔚然氣象。但在中美AI博弈背景下,美式封閉壟斷路線憑藉先發優勢提前完成了賽道卡位,被動的追隨式趕超已很難滿足中國智算產業的發展需要。“小院高牆”之外,如何充分發揮舉國體制優勢,團結一切力量拆牆修路,成為拉近中美AI體系差距的關鍵。多元異構生態協同,開放路徑通往下一賽點相較於美式寡頭壟斷模式,中國智算產業正基於多元異構體系層層解耦,重塑開放式生態系統。從頂層設計到產業落地,“開源開放+協同創新”已然成為國產軟硬體全端共識。在政策層面,《算力基礎設施高品質發展行動計畫》提出建構佈局合理、泛在連接、靈活高效的算力網際網路,增強異構算力與網路的融合能力,實現多元異構算力跨域調度編排。並且,相關部門多次強調,鼓勵各方主體創新探索智能計算中心建設營運模式和多方協同合作機制。延伸到AI應用層,《關於深入實施“人工智慧+”行動的意見》同樣要求深化人工智慧領域高水平開放,推動技術開源可及......不難看出,國家在人工智慧和智算領域給出了截然不同的中國方案——不在封閉路線中盲目追趕封閉,要在開放格局下謀求錯位趕超。事實上,頂層設計完全基於產業現實需要。在美方科技封鎖下,中國智算產業主要面臨兩大挑戰:單卡算力性能瓶頸、算力成本高。除了在晶片、模型、基礎軟體等核心技術領域持續攻堅外,當前更有效的途徑是發展更大規模、更多元高效的智算叢集,突破AI算力瓶頸。業內調研結果顯示,國內宣佈擁有千卡規模的算力叢集不少於100個,但其中大部分是異構晶片。可以想像,假如不同硬體系統相互封閉,標準介面不統一,軟體棧互不相容,將導致難以實現智算資源的有效整合利用,更無法滿足大規模參數模型的應用需求。根據行業主流觀點,國產AI算力存在多元化、碎片化特徵,同時又具備相當的規模化優勢。當務之急並不是各自埋頭推進單一技術路線,更首要的是盡快打通“技術牆”、“生態牆”,實現產業鏈開放跨層協作,真正釋放總體算力生態潛能,從單點突破邁向整合創新。具體來看,所謂開放路線旨在基於開放的計算架構推動產業生態協同創新。比如通過制定統一的介面規範,聯動晶片、計算系統、大模型等產業鏈上下游企業共同參與生態建設,減少重複性研發和適配投入,共享技術攻關和協同創新效益。同時,隨著開放架構中的協作標準趨於統一,可以進一步打造出商品化的軟硬體技術,用以代替定製化、專有化的系統,進而降低計算產品應用成本,實現覆蓋產業全端的算力普惠。顯然,在中國式開放體系下,國產AI算力正打破GoogleTPU的泛化普及困境,將智算生態系統與各方開發者使用者廣泛連結,最終形成體系化協同戰力,更靈活高效賦能人工智慧+落地。屆時,中美AI博弈也將走出單卡競爭和單一模型比拚,全面迎來生態體系能力的終極對壘。 (伯虎財經)
Google的“秘密武器”——TPU將撐起一個9000億美元的超級賽道?
Google的定製AI晶片TPU正被視為其重要的未來收入來源。市場預期,通過向Anthropic、Meta等外部客戶出售,TPU有望在輝達主導的市場中佔據20%份額,帶來近9000億美元商機。Google股價在第四季度大幅上漲31%,成為標普500指數中表現第十佳的成分股。投資者正日益相信,Alphabet旗下的人工智慧晶片可能成為其母公司未來的重要收入來源。這種被視為Google“秘密武器”的定製晶片,即張量處理單元(TPU),不僅在內部推動其雲端運算業務增長,更有望通過向第三方出售,開闢一個價值近兆美元的新市場。在這一預期的推動下,Alphabet股價在第四季度大幅上漲31%,成為標普500指數中表現第十佳的成分股。市場對TPU商業化前景的樂觀情緒,源於近期一系列關鍵動態。10月底,Alphabet宣佈將向AI初創公司Anthropic PBC提供價值數百億美元的晶片,此舉推動其股價在兩天內上漲超過6%。一個月後,據The Information報導,Meta Platforms Inc.正就在TPU上投入數十億美元進行談判,消息一出再次引發股價跳漲。DA Davidson技術研究主管Gil Luria估計,如果Alphabet能夠認真推進TPU的外部銷售,未來幾年內或可佔據AI晶片市場20%的份額,這將使其成為一個規模約9000億美元的業務。華爾街普遍認為,TPU是Alphabet在激烈AI競賽中的核心優勢。即使Alphabet從未對外銷售過一枚晶片,更高效的自研晶片也意味著一個性能更優、成本更低的雲服務。然而,一旦其開始向外部客戶認真銷售TPU,其商業版圖將迎來顛覆性改變。01 尋求輝達之外的替代選擇在當前AI晶片市場由輝達主導的背景下,TPU為尋求供應鏈多元化的公司提供了極具吸引力的替代方案。DA Davidson技術研究主管Gil Luria表示:“如果企業希望分散對輝達的依賴,TPU是一個很好的選擇,這讓我們有充分的理由保持樂觀。”TPU屬於“專用積體電路”(ASIC),專為加速機器學習工作負載而定製。這一特性使其在通用性上不及輝達的晶片,但也帶來了顯著的成本優勢。Homestead Advisers的股票投資組合經理Mark Iong指出,在投資者對AI相關支出日益審慎的當下,成本效益成為一個真正的優勢:“輝達的晶片成本更高且難以獲得,但如果你能使用ASIC晶片,Alphabet就在那裡,並且遙遙領先於該市場。”02 近兆美元市值的想像空間分析師們已經開始量化TPU對外銷售可能帶來的巨大商業價值。Gil Luria估計,如果Alphabet能夠認真推進TPU的外部銷售,未來幾年內或可佔據AI晶片市場20%的份額,這將使其成為一個規模約9000億美元的業務。摩根士丹利分析師Brian Nowak也觀察到一種“初露萌芽的TPU銷售策略”。他援引公司亞洲半導體分析師的預測稱,2027年TPU的採購量預計將達到500萬片,比先前預期高出約67%;2028年將達到700萬片,較先前預期高出120%。Nowak在12月1日給客戶的報告中寫道,雖然大部分需求可能來自Alphabet的自用和Google雲平台,但這也“揭示了Alphabet銷售更多TPU的潛力”。根據摩根士丹利的估算,每向第三方資料中心銷售50萬片TPU,就可能為Alphabet在2027年的收入增加約130億美元,並為其每股收益貢獻40美分。基於分析師的預測,Alphabet在2027年的營收預計約為4470億美元,增加130億美元將意味著近3%的銷售增長。據彭博彙編的資料,過去三個月,市場對該公司2027年的營收共識預期已上調超過6%。03 AI全端佈局的協同效應TPU的價值不僅在於其作為獨立產品的潛力,更在於它與Alphabet整個AI生態系統的深度協同。Google近期發佈的最新AI模型Gemini獲得了外界高度評價,該模型經過最佳化,能夠在TPU上高效運行,這進一步證實了TPU的內在價值。Mark Iong對此評論道,“Alphabet是唯一一家在AI的每一層都擁有領先地位的公司”,他指出,從Gemini模型、Google雲到TPU等多個領域,“這賦予了它不可思議的優勢。”儘管如此,目前尚不清楚Alphabet對於向第三方大規模銷售晶片的決心有多大,但其內部優勢已經為其未來的商業決策鋪平了道路。對TPU業務的過高期望,也可能在未來無法兌現時導致投資者失望,尤其是在Alphabet股價已大幅上漲的背景下。目前,Alphabet的股價約為預期收益的27倍,是自2021年以來的最高水平,也遠高於其十年平均水平。然而,即便如此,與蘋果、微軟和博通等其他大型科技股相比,其估值仍然更低。Jensen Investment Management的投資組合經理Allen Bond近期利用股價上漲的機會減持了部分股份。不過,他依然看好公司的整體地位和前景,認為“TPU成為收入驅動因素的路徑是可信的”。他表示:“Alphabet在AI領域正展現出切實的實力和進展,儘管這一點越來越被投資者所認可,但考慮到增長預期,其估值看起來仍然合理。一家在AI領域擁有強勁勢頭、交易價格卻低於微軟和蘋果的公司,意味著它仍是核心持倉。” (硬AI)